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摘要 : 【 目的 ] 充分 利用 多 源 网 络 评估 数据 和 URL 异常 特征 数据 , 研究 提高 钓鱼 网 站 识别 准确 性 的 可 行 性 方案 。 
【方法 ] 采用 8 种 机 器 学 习 技术 ,对 比 研究 网 络 评估 数据 与 传统 的 URL 异常 特征 数据 在 钓鱼 网 站 识别 中 的 性 能 ， 
并 融合 两 类 数据 研究 进一步 提高 钓鱼 网 站 识别 准确 性 的 可 行 性 方案 。[ 结果 ] 在 钓鱼 网 站 识别 中 , 相 比 于 传统 的 
URL 异常 特征 , 利用 网 络 评 佑 数据 可 以 取得 更 好 的 识别 效果 。 融 合 两 类 数据 对 于 提高 识别 准确 性 有 一 定 帮 助 。 
【 局限 ] 未 考虑 钓鱼 网 站 与 正常 网 站 的 数量 存在 严重 的 不 均衡 问题 。[ 结论 】 充分 利用 多 源 网 络 评 佑 数据 和 URL 
异常 特征 数据 识别 钓鱼 网 站 的 方法 是 比较 合理 和 有 效 的 ,对 后 续 相 关 人 研究 具有 一 定 的 借鉴 意义 。 
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钓鱼 网 站 识别 ”机 顺 学 习 


1 3 引 


近年 来 ， 随 着 互联 网 的 高 速 发 展 ,网 民 数 量 急 剧 增 
加 , 在 电子 商务 及 电子 金融 产业 日 渐 繁荣 的 同时 ， 网 络 
安全 问题 日 益 凸 显 。 病 毒 、 盗 号 、 木 马 、 钓 鱼 等 黑客 行 
为 对 互联 网 环境 造成 极其 恶劣 的 影响 ,其 中 钓鱼 网 站 
的 危害 尤其 严重 。 钩 鱼网 站 是 一 种 基于 社会 工程 学 的 攻 
击 手 段 , 不 法 分 子 通过 垃圾 邮件 、 聊 天 工具 、 手 机 短信 
或 网 页 虚假 广告 发 送 大 量 声称 来 自 于 银行 或 其 他 知名 
机 构 的 欺骗 性 信息 , 意图 引诱 用 户 给 出 敏感 信息 (如 用 
户 名 、 口令 、 手 机 号 、 银 行 账号 和 密码 )。 根 据 2016 年 
6 月 中 国 互联 网 协会 发 布 的 《中 国 网 民权 益 保 护 调查 报 
告 (2016)》 中 国 互联 网 用 户 近 一 年 来 因 个 人 信息 泄露 、 
诈骗 信息 等 问题 ,导致 总 体 损失 约 915 亿 元 。 

为 了 阻止 用 户 访问 钓鱼 网 站 并 最 大 程度 地 减 小 用 
户 损失 , 互联 网 厂商 采用 黑白 名 单 技术 , 推出 了 用 于 
识别 钓鱼 网 站 的 浏览 器 检测 插件 "了 1。 但 是 , 随 着 钓鱼 


了 中 


sie 


网 站 数量 的 急剧 增加 , 黑白 名 单 技术 并 不 能 有 效 地 解 
决 钓鱼 网 站 的 识别 问题 , 不 少 学 者 尝试 基于 URL 异常 
特征 构建 识别 模型 用 以 有 效 识别 钓鱼 网 站 中 。 有 学 
者 借助 互联 网 上 可 公开 获取 的 网 站 评估 数据 , 开展 了 
基于 网 络 评估 数据 的 钓鱼 网 站 识别 技术 研究 ["。 尽 管 
基于 URL 异常 特征 的 识别 技术 和 基于 网 络 评估 数据 
的 识别 技术 均 取 得 了 较 好 的 效果 , 但 尚未 有 研究 对 比 
这 两 类 技术 在 钓鱼 网 站 识别 中 的 性 能 。 因 此 , 本 文采 
用 8 种 机 顺 学 习 技 术 , 对 比 两 类 识别 技术 在 钓鱼 网 站 
识别 中 的 性 能 , 并 尝试 融合 两 类 多 源 数 据 , 研究 进 一 
步 提高 钓鱼 网 站 识别 准确 率 的 可 行 性 方案 。 
2 相关 研究 

鉴于 钓鱼 网 站 和 危害 极 大 ,国内 外 研究 提出 了 多 种 
不 同 的 解决 方案 ,如 基于 黑 名 单 的 识别 技术 和 基于 
URL 异常 特征 的 机 需 学 习 识 别 技术 。 其 中 ,基于 黑 白 
名 单 的 识别 技术 多 采用 浏览 器 插件 形式 实现 "一 ， 如 微 
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软 正 浏览 器 的 Phishing Filter .谷歌 出 品 的 Google Safe 
Browsing、 搜 狗 网 页 安全 卫士 等 。 基 于 事先 维护 的 钓 
鱼网 站 黑 名 单列 表 ， 当 用 户 访问 的 网 站 在 黑 名 单 中 时 ， 
浏览 器 会 弹出 警示 框 ,提醒 用 户 当前 访问 的 网 站 是 钓 
鱼网 站 , 进而 阻止 用 户 访问 该 钓鱼 网 站 。 虽 然 这 些 基 
于 黑 名 单 技术 的 检测 方式 简单 直接 , 但 在 实践 运行 中 
效果 欠 佳 。 如 , 为 了 测试 现 有 浏览 器 厂商 或 第 三 方 厂 
商 提供 的 各 种 浏览 器 防 钓鱼 网 站 搬 件 , Zhang 等 所 设计 
了 一 种 自动 检测 平台 。 针 对 该 平台 收集 的 200 个 钓鱼 
网 址 和 516 个 合法 网 址 ，10 个 流行 的 防 钓 鱼网 站 插件 
中 只 有 两 个 工具 可 以 识别 出 60% 以 上 的 钓鱼 网 址 。 究 
其 原因 ， 主 要 是 由 于 黑 名 单 往往 是 通过 网 民 举 报 和 人 
工 审核 等 方式 建立 的 , 具有 一 定 的 滞后 性 ; 同时 ， 随 
着 钓鱼 网 站 数量 的 急剧 增加 ， 使 得 建立 一 份 完整 的 黑 
白 名 单 的 难度 越 来 越 大 。 因 此 这 种 方法 虽然 技术 简单 ， 
但 无 法 从 本 质 上 检测 钓鱼 网 络 攻击 。 

基于 URL 异常 特征 的 识别 技术 利用 钓鱼 网 站 的 


流 ,实现 识别 钓鱼 网 站 的 目的 。 然 而 , 该 研究 仅仅 验证 
了 各 机 顺 学 习 模 型 利用 网 络 评 佑 数据 在 识别 钓鱼 网 站 
中 的 有 效 性 ， 而 所 提 方 法 与 传统 方法 如 基于 URL 异常 
特征 的 识别 技术 相 比 , 是 否 具 有 更 好 的 识别 效果 , 并 
未 加 以 验证 ， 且 进一步 融合 两 类 特征 变量 是 否 能 更 好 
地 提高 钓鱼 网 站 的 识别 性 能 也 仍 未 知 。 

因此 , 本 文 针 对 钓鱼 网 站 识别 问题 ， 对比 研究 多 
源 网 络 评估 数据 与 URL 特征 数据 在 钓鱼 网 站 识别 中 
的 性 能 ,并 融合 两 类 多 源 数据 特征 ,进一步 探究 提高 
钓鱼 网 站 识别 准确 性 的 可 行 性 方案 ,， 以 期 为 相关 的 钓 
鱼网 站 识别 研究 提供 参考 。 

本 文 的 主要 创新 包括 : 采用 8 种 经 典 的 机 器 学 习 
技术 系统 地 评价 基于 不 同 特征 变量 识别 钓鱼 网 站 的 性 
能 ; 采用 Boruta 技术 进行 特征 选择 ,剔除 元 余 特征 变 
量 ， 提 高 模型 性 能 ; 基于 多 个 评价 指标 , 全 面 对 比 分 
析 了 URL 特征 数据 、 多 源 网 络 评估 数据 及 融合 两 类 特 
征 数据 识别 钓鱼 网 站 的 性 能 。 


GN URL 特征 ,基于 机 融 学 习 算法 构造 用 以 识别 钓鱼 网 站 
~ 的 分 类 器 模型 。 如 , Blum 等 中 从 URL 中 提取 词汇 特征 
TT 并 构建 可 信和 度 加 权 的 分 类 算法 。 黄 华军 等 扑通 过 分 析 
网 站 域名 结构 上 的 特征 和 语义 上 的 特征 , 抽取 10 多 个 。 源 网 络 评估 数据 及 URL 特征 的 识别 模型 。 图 1 描述 了 
-| 有 效 特 征 ， 用 以 构建 和 测试 基于 支持 向 量 机 的 分 类 模 该 技术 的 详细 流程 。 主 要 包括 数据 采集 与 预 处 理 、 特 
ac 一 型 ， 达 到 了 较 好 的 识别 效果 。Ma 等 5 构建 的 恶意 网 征 选择 、 模 型 构建 与 验证 三 部 分 。 

Ca 站 的 识别 模型 中 , 则 采用 了 URL 词汇 特征 和 主机 特 


3 ”钓鱼 网 站 识别 模型 
为 了 更 为 准确 地 识别 钓鱼 网 站 , 本 文 提 出 融合 多 


《9 Wt 正常 与 钓鱼 | | URL 异 党 
S 征 。 基 于 URL 中 提取 出 的 敏感 特征 , 曾 传 开 等 中 设计 网 站 URLs 特征 集合 


三。 了 改进 的 AdaCostBoost 算法 ,实验 结果 表明 ,该 检 测 
@ 〇 方法 具有 较 优 的 检测 性 能 。 相 比 黑白 名 单 识别 技术 ， 
基于 URL 异常 特征 的 钓鱼 网 站 识别 技术 不 再 需要 人 
工 去 标注 钓鱼 网 站 ,工作 效率 有 了 很 大 提高 四， 且 能 ] 


够 在 一 定 程度 上 应 对 钓鱼 网 站 的 快速 变化 -但 是 , URL 
特征 选择 缩减 的 特征 
集合 


多 源 在 线 数 提 


网 络 评估 
数据 


评估 特征 
集合 


SE 


仿照 性 较 强 , 仅仅 通过 URL 异常 特征 识别 钓鱼 网 站 可 


能 会 造成 较 高 的 误 判 率 和 漏 判 率 ”5)， 风 险 较 大 。 


近年 , Hu 等 9 融合 网 站 的 多 源 网 络 评估 数据 构建 二 
多 种 机 器 学 习 模型 ， 用 于 识别 钓鱼 网 站 。 该 研究 利用 K 近 邻 朴素 贝 叶 斯 下 于 
、 车 神经 网 训练 与 十 所 识别 结果 
互联 网 上 可 公开 获取 的 评估 数据 (如 知名 互联 网 公司 0 el | 
测评 的 域名 评估 数据 、 社 交 平台 关注 数据 等 ) 构造 网 随机 森林 


站 评估 数据 的 特征 向 量 , 并 采用 多 种 稳健 的 机 带 学 习 
算法 , 构建 钓鱼 网 站 识别 模型 。 结 果 表明 各 机 器 学 习 
模型 可 以 较 好 地 利用 网 络 评估 数据 识别 钓鱼 网 站 。 该 
方法 符合 当前 大 数据 分 析 中 充分 融合 多 源 数 据 的 潮 


图 1 识别 技术 流程 


(1) 数据 采集 与 预 处 理 
为 了 构建 融合 多 源 网 络 评估 数据 及 URL 特征 的 


数据 分 析 与 知识 发现 


钓鱼 网 站 识别 模型 ， 从 PhishTank、Alexa 等 钓鱼 网 站 
名 录 和 知名 站 点 名 录 收 集 网 站 URLs 集 ; 从 Moz、 
Majestic 、Google 、Alexa 等 第 三 方 知名 网 站 评估 平台 
收集 网 络 评估 数据 ; 经 数据 清理 、 筛 选 、 抽 取 等 处 理 
后 得 到 URL 异常 特征 变量 和 网 络 评估 特征 变量 ,并 融 
合 两 类 特征 向 量 得 到 多 源 特征 集合 。 

(2) 特征 选择 

上 述 收集 提取 的 URL 异常 特征 、 网 络 评估 特征 及 
融合 两 类 特征 的 多 源 特征 集合 , 可 能 存在 一 些 不 相关 
或 者 元 余 的 特征 变量 , 这 些 变量 不 仅 会 影响 模型 的 识 
别 精 度 ， 还 会 增加 模型 的 复杂 度 ,， 进 而 降低 效率 ， 
此 使 用 特征 选择 技术 去 除 多 余 变量 是 必要 的 。 为 此 ， 
本 研究 采用 Boruta 算法 品 进 行 特征 变量 的 筛选 以 去 
除 多 余 的 变量 、 提 高 模型 识别 精度 。 

Boruta 是 一 种 特征 选择 算法 , 通过 创建 混合 副本 
的 所 有 特征 增加 了 随机 性 , 而 且 使 用 特征 重要 性 指标 
(默认 设 定 为 平均 减少 精度 ) 评 估 每 个 特征 的 重要 性 ， 
每 次 迭代 的 时 候 都 会 比较 每 一 个 真实 的 特征 变量 是 否 
比 最 好 的 阴影 特征 具有 更 高 的 重要 性 ， 以 此 为 依据 删 
除 不 重要 的 特征 上。 在 Boruta 执行 完 变 量 筛选 后 , 会 
对 数据 集中 变量 的 意义 给 出 明确 的 解释 。 

(3) 模型 构建 与 验证 

为 了 有 效 评估 不 同 特征 变量 在 钓鱼 网 站 识别 中 的 
性 能 ， 本 文采 用 决策 树 、 支 持 向 量 机 、K 近邻 法 、 朴 
素 贝 叶 斯 、 人 工 神 经 网 络 、AdaBoost、Bagging、 随 机 
森林 8 种 经 典 的 机 器 学 习 技术 构建 识别 模型 ,这些 模 
型 在 数据 挖掘 和 机 器 学 习 领 域 得 到 广泛 应 用 ,同时 也 
是 钓鱼 网 站 识别 研究 中 的 常用 技术 。 其 中 , 决策 树 、 
支持 向 量 机 、K 近邻 法 、 朴 素 贝 叶 斯 、 人 工 神经 网 络 
填 于 单一 模型 ， AdaBoost、Bagging 、 随 机 森林 属于 集 
成 模型 。 值 得 注意 的 是 ， 集 成 模型 集合 了 多 个 弱 学 习 
右 ， 相 比 于 单一 模型 , 往往 具有 更 高 的 准确 性 n> 基 
于 以 上 8 种 机 器 学 习 技 术 , 采用 十 折 交 又 验证 , 通过 
准确 率 (Accuracy)、 查 全 率 (Recall)、 查 准 率 (Precision)、 
F 值 (F-measure) 4 种 评价 指标 ,全面 评估 和 对 比 基 于 
URL 异常 特征 、 网 络 评估 特征 、 多 源 融 合 特征 的 钓鱼 
网 站 识别 模型 和 性 能 。 
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4 数据 收集 与 处 理 


4.1 数据 收集 

为 了 研究 网 络 评估 数据 与 传统 的 URL 异常 特征 
数据 在 识别 钓鱼 网 站 中 的 性 能 ， 本 研究 既 获 取 了 网 站 
的 URL 特征 数据 ,又 获取 了 网 站 的 网 络 评估 数据 。 一 
共 获 取 了 2 000 条 URL 数据 , 这 些 URL 截至 2016 年 
7 月 31 日 仍然 可 以 解析 。 为 了 消除 数据 不 平衡 问题 ， 
数据 集中 合法 网 址 和 钓鱼 网 址 各 占 一 半 。1 000 条 钓鱼 
网 站 数据 从 PhishTank 中 获取 。1 000 条 合法 网 站 数据 
从 Alexa 获取 ,上 且 这 些 合 法 网 站 既 有 访问 量 很 大 的 网 
站 , 也 有 访问 量 极 少 的 , 并 在 Alexa 中 排名 特别 靠 后 
(如 1000 万 以 后 ) 的 网 站 。 

4.2 ”数据 描述 

(1) URL 特征 变量 

通过 对 已 有 相关 文献 的 分 析 , 选取 7 个 钓鱼 网 站 
的 特征 变量 , 组 成 URL 特征 向 量 FV: 

FV=<F1, F2, F3, F4, FS, F6, F7> 

Fl: lengthb，URL 长 度 , 一 般 可 信和 网 站 URL 的 长 度 小 于 
23, URL 过 长 的 网 站 , 就 有 可 能 是 钓鱼 网 站 。 

F2: isContainIp，URL 中 是 否 含 有 也 地 址 ,为 逃避 域名 
的 注册 或 用 户 的 检查 ， 用 十 进 制 掩饰 的 基于 卫 地 址 的 
URL 地 址 是 一 种 在 钓鱼 网 站 中 常用 的 手段 。 

F3: isContainSensitiveWord, URL 中 是 否 包 含 敏 感 词汇 ， 
敏感 词汇 包括 admin、login、manage、root、account、bank、 
password 等 ， 当 网 址 中 出 现 较 多 敏感 词汇 时 ,可 能 就 是 钓鱼 
网 站 为 了 获取 用 户 的 信息 而 设置 的 。 

F4: isContainSpecailCharactor，URL 中 是 否 出 现 异常 字 
符 ， 异 常 字符 包括 -、~、! 、@、#、$、%、* 等 ,如 果 网 址 
的 异常 字符 过 多 ,该 网 站 很 有 可 能 就 是 钓鱼 网 站 。 

F5: countOfDot, URL 域名 级 数 ， 当 URL 中 包含 过 多 的 
域名 级 数 时 , 很 可 能 是 钓鱼 网 站 模仿 合法 网 站 ,故意 加 入 产 
品 信 息 。 

F6: countOfSlash, URL 目录 级 数 , 设置 较 多 的 路 径 级 数 
时 可 以 让 用 户 眼花 织 乱 以 至 于 无 法 辨别 出 是 钓鱼 网 站 。 

F7: count, URL 中 长 单词 (长 度 超过 20) 的 个 数 ， 正 常 网 
站 中 出 现 长 单词 的 次 数 很 少 。 

(2) 互联 网 评估 数据 

针对 互联 网 评估 数据 , 分 别 从 Moz 、Majestic 、 
Google 、Alexa 共 4 家 知名 网 络 采集 多 源 网 站 评估 数据 ， 
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经 处 理 , 得 到 包含 16 个 变量 的 评估 数据 特征 向 量 FV: 

FV=<F8, F9, F10, F11, F12, F13, F14, F15, F16, F17, 

F18, F19, F20, F21, F22, F23> 

(DMoz 评估 数据 

F8: Moz's Domain Authority, Moz 公司 给 出 的 域名 在 搜 
索引 掌中 排名 的 预测 。 

F9: MozRank， 代 表 一 个 链接 流行 度 评分 。 

F10: Moz’s Total Backlinks， 反 映 一 个 网 站 的 所 有 反 向 
链接 , 反 向 链接 越 多 , 说 明 这 个 网 站 越 受 欢迎 。 

(2)Majestic 评估 数据 

F11: Majestics Citation Flow， 用 来 度量 引用 来 源 , 通过 
引用 排名 ,显示 一 个 网 站 的 受 欢迎 程度 。 

F12: Majestic"s Trust Flow， 用 来 度量 信任 来 源 ,表明 一 
个 网 站 和 可 信赖 网 站 的 亲密 程度 。 

F13: Majestic’s Backlinks, 反映 网 站 反 向 链接 的 指标 。 

F14: Majestic's Reference Domains， 引 用 域 ， 是 指 外 部 
链接 指向 当前 网 站 的 个 数 。 

社交 网 站 分 享 度 : 可 以 反映 出 各 个 网 站 在 社交 网 站 的 


F15: Facebook Shares， 在 Facebook 的 受 欢 迎 程度 。 
F16: Twitter Tweets， 在 Twitter 的 受 欢 迎 程度 。 
F17: Google Plus Shares， 在 Google Plus 的 受 欢迎 程度 。 
@)Google 评估 数据 
F18: Google’s Page Rank, 是 Google 通过 网 站 之 间 的 超 
链接 关系 确定 的 网 站 排行 榜 。 

F19: Google’s Page Speed, 是 Google 评 估 网 页 加 载 速度 
的 指标 。 

(DAlexa 评估 数据 

F20: Alexa’s Rank， 通 过 网 站 的 访问 量 确定 网 站 排名 ， 
访问 量 越 大 ,排名 越 靠 前 ， 网 站 越 受 欢 迎 。 

F21: Alexa’s 1 Month Reach, 网 站 最 近 1 个 月 的 平均 每 
天 访问 量 。 

F22: Alexa’s 3 Month Reach, 网 站 最 近 3 个 月 的 平均 每 
天 访问 量 。 

F23: Alexa’s Median Load, 使 用 Alexa 特有 的 算法 计算 
出 的 页 面 平均 加 载 速 度 。 
4.3 ”评估 方式 

判断 一 个 网 站 是 钓鱼 网 站 , 还 是 正常 网 站 ,是 典 
型 的 二 分 类 问题 。 在 现实 生活 中 正常 网 站 的 数量 远 多 
于 钓鱼 网 站 的 数量 钓鱼 网 站 更 容易 出 现 错 分 , 另外 
钓鱼 网 站 的 错 分 代价 更 大 因此 钓鱼 网 站 的 识别 率 更 
重要 。 所 以 本 文 不 采用 总 体 分 类 性 能 指标 ， 而 是 采用 
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二 分 类 问题 的 混合 矩阵 进行 评估 ,如 表 1 所 示 。 
1 二 分 类 的 混合 矩阵 


判断 是 正常 网 站 判断 是 钓鱼 网 站 
实际 是 正常 网 站 TN FP 
实际 是 钓鱼 网 站 FN TP 


其 中 , 钓鱼 网 站 样本 为 P, 正常 网 站 样本 为 N FP 
是 指 将 正常 网 站 样本 错 分 成 钓鱼 网 站 的 数目 ，FN 是 指 
将 钓鱼 网 站 样本 错 分 成 正常 网 站 的 数目 , TP 和 TN 分 别 
表示 钓鱼 网 站 和 正常 网 站 样本 被 正确 分 类 的 数目 。 

据 此 得 到 4 类 性 能 评价 指标 , 分 别 如 公式 (1)- 公 
式 (4) 所 示 。 


TP+TN 

Accuracy= (1) 
TP+TN+FP+FN 

Recall= a (2) 

TP+FN 

Precision= (3) 
FP+TP 

ae 2x Recall x ron (4) 

Recall + Precision 


从 公式 (4) 可 知 ,性 能 指标 F-measure 既 考 虑 钓鱼 
网 站 样本 的 查 全 率 又 考虑 查 准 率 ， 只 有 在 查 全 率 和 查 
准 率 的 值 都 比较 大 的 前 提 下 , F-measure 值 才 会 很 大 ， 
此 能 综合 地 体现 出 分 类 器 对 正常 网 站 和 钓鱼 网 站 的 分 
类 效果 ,而 且 侧 重 于 体现 钓鱼 网 站 样本 的 分 类 效果 。 


S 实验 结果 和 分 析 


为 了 探究 提高 钓鱼 网 站 识别 准确 率 的 可 行 性 方 
案 , 对 比 研 究 基于 URL 异常 特征 的 识别 技术 、 基 于 网 
络 评估 数据 的 识别 技术 和 融合 两 类 特征 变量 的 识别 技 
术 在 钓鱼 网 站 识别 中 的 性 能 表现 。 为 了 消除 指标 之 间 
的 量 纲 影响 ,对 特征 向 量 进行 归 一 化 处 理 ， 随 后 采用 
8 种 机 器 学 习 技 术 分 别 对 三 类 特征 向 量 构建 识别 模型 ， 
并 最 终 通 过 指标 对 比分 析 基 于 三 类 不 同 特征 向 量 的 识 
别 模型 的 识别 性 能 。 

数据 采集 、 处 理 及 识别 模型 的 训练 等 所 有 实验 均 
在 及 语言 环境 下 进行 ,实验 涉及 到 的 “rparf"“e1071”、 
“kknn”、 “nnet”、“adabag”、“randomForest”、“Boruta” 
等 程序 包 均 可 下 载 。 


5.1 基于 URL 异常 特征 的 识别 

(1) 特征 选择 

在 收集 的 URL 特征 中 , 可 能 存在 一 些 不 相关 或 者 
宛 余 的 变量 ,， 这些 变 量 不 仅 会 影响 模型 识别 精度 ， 还 
会 增加 模型 的 复杂 度 ， 进 而 降低 效率 。 因 此 ,首先 基于 
Boruta 特征 选择 方法 ,对 含有 7 个 URL 特征 变量 的 
数据 进行 变量 筛选 , 结果 如 图 2 所 示 。 
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图 2 基于 Boruta 的 URL 特征 选择 


图 2 展示 了 Boruta 计算 的 各 变量 的 重要 性 ， 其 中 ， 
红色 和 绿色 的 盒 状 图 分 别 代表 拒绝 变量 和 确认 变量 的 
Z 分 数 。 蓝 色 的 盒 状 图 对 应 一 个 阴影 变量 的 最 小 、 平 
均 和 最 大 Z 分 数 。 可 知 ,isContainIp( 是 否 含有 IP) 和 
isContainSensitiveWord( 是 否 含有 敏感 词汇 ) 两 个 变量 
被 拒绝 ， 其余 的 5 个 被 确认 。 

(2) 结果 分 析 

基于 已 确认 的 5 个 URL 特征 变量 , 采用 决策 树 、 
支持 向 量 机 、K 近邻 法 、 杆 素 贝 叶 斯 、 人 工 神 经 网 络 、 
AdaBoost、Bagging、 随 机 和 森林 8 种 机 器 学 习 技术 分 别 
构建 识别 模型 ， 且 每 个 模型 均 采 用 十 折 交 又 验证 的 方 
式 进行 训练 和 测试 , 每 组 实验 均 重 复 10 次 以 防止 随机 
影响 , 最 后 计算 这 些 实验 的 各 评测 指标 的 统计 平均 
值 。 实 验 结果 如 表 2 所 示 。 
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表 2 8 种 方法 的 评 佑 结果 


廊 泛 准确 率 ” 查 准 率 ” 查 全 率 F 值 
决策 树 0.5935 0.9099 0.2150 0.3433 
SVM 0.6340 0.7744 0.3780 0.5074 
K 近邻 法 0.6205 0.6411 0.5610 0.5954 


朴素 贝 叶 其 0.5990 0.9720 0.2040 0.3362 
人 工 神 经 网 络 ”0.6420 0.7535 0.4290 0.5457 


三 和 


AdaBoost 0.6435 0.7500 0.4400 0.5534 
Bagging 0.6445 0.7587 0.4260 0.5443 
随机 森林 0.6390 0.7828 0.3850 0.5155 


从 表 2 可 以 看 出 , 仅仅 使 用 URL 异常 特征 进行 网 
站 识别 的 性 能 不 是 很 好 。 其 中 ,下 值 最 高 的 为 K 近邻 法 
(0.5954)， 且 该 方法 的 查 全 率 0.5610 也 是 所 有 方法 中 
最 高 的 , 但 准确 率 和 查 准 率 相 比 三 种 集成 模型 略 差 一 
些 。 决 策 树 、SVM、 朴 素 贝 叶 斯 三 种 单一 方法 虽然 有 
相对 较 高 的 查 准 率 , 但 是 其 查 全 率 和 下 值 很 差 , 这 说 
明 它 们 将 大 多 数 钓 鱼网 站 都 识别 为 正常 网 站 。 三 种 集 
成 模型 (AdaBoost、Bagging 和 随机 森林 ) 相 对 其 他 模型 ， 
4 个 性 能 指标 都 比较 适中 , 表现 比较 稳健 ,这 主要 在 
于 这 些 模型 是 由 众多 弱 模 型 集成 而 来 , 受 噪声 等 随机 
素 的 影响 相对 个 体 模型 而 言 比较 小 。 

总 体 来 看 , 仅仅 使 用 URL 异常 特征 进行 钓鱼 网 
站 的 识别 , 效果 不 是 很 好 , 这 主要 是 由 于 URL 样式 
极 易 模仿 和 学 习 ， 导 致 URL 异常 特征 特别 有 限 ， 
而 仅仅 依赖 URL 异常 特征 进行 钓鱼 网 站 的 识别 是 远 
远 不 够 的 。 

5.2 ”基于 网 络 评估 数据 的 识别 

(1) 特征 选择 

采用 Boruta 进行 特征 变量 的 筛选 ,以 剔除 元 余 变 
量 。 各 变量 的 重要 性 和 检测 结果 如 图 3 所 示 。 

可 知 ，16 个 变量 均 被 认为 是 重要 的 。 其 中 ， 
GooglePageRank、RefDomains 和 GooglePlusShares 是 
所 有 变量 中 最 重要 的 三 个 。 

(2) 结果 分 析 

基于 筛选 得 到 的 16 个 网 络 评估 变量 构建 识别 模 
型 , 实验 结果 如 表 3 所 示 。 

从 表 3 可 以 看 出 , 使 用 网 络 评估 数据 进行 网 站 识 
别 的 准确 率 较 高 ， 除 了 朴素 贝 叶 斯 算法 外 ， 其 余 算法 
的 准确 率 都 在 0.85 以 上 , 而 且 下 值 在 0.88 以 上 , 相 比 
仅 利 用 URL 异常 特征 进行 识别 有 很 大 的 提升 。 其 中 ， 
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Importance 
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shadowMin - 由 
shadowMean - 
shadowMax - 4 。 
Alexa3MthReach :| 由 
AlexalMthReach -| 由 
AlexaMedianLoad -| 和 
AlexaRanks -| | 
GooglePageSpeed - “th ° 
TrustFlow ] 由 | 
MozRank [出 -+ 
CitationFlow - 由 
MozDomainAuthority - | 
MozTotalLinks - 出 
ExtBackLinks - | ° 
FacebookShares -| 由 1 
TwitterTweets - sl 
GooglePageRank = 跨 
RefDomains - 由 
GooglePlusShares - :加 “ 


图 3 基于 Boruta 的 网 络 评估 数据 特征 选择 
表 3 8 种 方法 的 评估 结果 


方法 准确 率 ” 查 准 率 查 全 率 F 值 
决策 树 0.8810 0.8576 0.9160 0.8845 
SVM 0.9145 0.9026 0.9310 0.9159 
K 近邻 法 0.9115 0.9030 0.9240 0.9126 
朴素 贝 叶 斯 0.7455 0.6659 0.9890 0.7956 
人 工 神经 网 络 0.8695 0.9226 0.8460 0.8818 
AdaBoost 0.9415 0.9335 0.9500 0.9412 
Bagging 0.9230 0.9174 0.9310 0.9234 
随机 森林 0.9415 0.9355 0.9500 0.9421 


三 个 集成 学 习 模型 的 各 性 能 指标 均 大 于 0.91, 与 其 他 
单一 模型 相 比 具有 明显 的 优势 。 这 得 益 于 这 些 集成 学 
习 模 型 在 模型 构建 中 的 集成 机 制 ， 上 且 对 于 含有 16 个 输 
入 变量 的 识别 问题 更 加 有 效 。 

此 外 , 同 URL 异常 特征 的 结果 一 样 ， 朴素 贝 叶 斯 
表现 是 最 差 的 , 虽然 查 全 率 高 达 0.9890, 但 F 值 . 查 准 
率 和 准确 率 却 是 最 低 的 ， 分 别 为 0.7956、0.6659 和 
0.7455， 这 意味 着 该 方法 将 大 多 数 正确 网 站 识别 为 钓 
鱼网 站 , 这 与 基于 URL 特征 识别 的 结果 恰恰 相反 。 朴 
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素 贝 叶 斯 是 建立 在 特征 变量 相互 独立 的 基础 上 的 一 种 
分 类 器 中 ,很 显然 ， 本 研究 中 收集 的 变量 并 非 一 定 是 
独立 的 , 这 导致 了 该 方法 表现 很 差 。 

总 的 来 看 ,基于 网 络 特征 数据 进行 识别 的 准确 率 
较 高 , 基本 上 可 以 正确 地 识别 出 钓鱼 网 站 。 
5.3 ”融合 URL 特征 和 网 络 评估 数据 的 识别 

(1) 特征 选择 

融合 7 个 URL 异常 特征 变量 和 16 个 网 络 评估 数 
据 特 征 , 并 采用 Boruta 进行 特征 变量 的 筛选 ,结果 如 
图 4 所 示 。 
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图 4 基于 Boruta 的 URL 和 网 络 评估 数据 的 
特征 选择 


可 知 , 3 个 变量 被 拒绝 , 分 别 是 isContainIp( 是 否 含 
有 IP), isContainSensitiveWord( 是 否 含有 敏感 词汇 ) 以 
及 isContainSpecialCharactor( 是 否 有 特殊 字符 )， 其 余 
20 个 变量 均 被 认为 是 重要 的 。 

(2) 结果 分 析 

采用 融合 URL 特征 与 网 络 评估 数据 的 20 个 变量 
构建 钓鱼 网 站 识别 模型 ， 实验 结果 如 表 4 所 示 。 同 时 ， 
为 了 便于 同 基 于 URL 异常 特征 的 模型 和 基于 网 络 评 
佑 数据 的 模型 对 比 , 图 5 给 出 了 8 种 机 器 学 习 模 型 在 
采用 不 同 变量 特征 时 识别 性 能 的 对 比 结果 。 
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表 4 8 种 方法 的 评估 结 


2 准确 率 查 准 率 查 全 率 F 值 
决策 树 0.8810 0.8576 0.9160 0.8845 
SVM 0.9119 0.9280 0.9194 0.9185 
K 近邻 法 0.9200 0.9133 0.9300 0.9208 
朴素 贝 叶 斯 0.7690 0.6881 0.9880 0.8108 
人 工 神 经 网 络 。 0.8945 0.8879 0.8710 0.8776 
AdaBoost 0.9415 0.9383 0.9430 0.9403 
Bagging 0.9230 0.9174 0.9310 0.9234 
随机 森林 0.9435 0.9363 0.9530 0.9442 
1.0 
0.9 可 图 冉 加 里 
0.8 | | | 到 四 | | 
07 | | | | 目 中 目 | 
| 
0.5 | | | | | | | | | 
| 天 | 四 | | 四 | | | | 男 || 男 | | 
0 3 -到 图 四 | | | | 加 | 

SE 
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图 5 三 组 实验 F 值 的 对 比 


从 表 4 可 以 看 出 , 在 融合 两 类 数据 特征 的 情况 下 ， 
8 种 机 器 学 习 识别 模型 中 ,朴素 贝 叶 斯 算法 除 查 全 率 
稍 高 之 外 , 准确 率 、 查 准 率 和 下 值 是 最 差 的 。 如 上 文 
所 述 , 这 主要 是 由 于 变量 间 不 一 定 相互 独立 所 致 。 随 
机 森林 作为 集成 学 习 模 型 里 的 佼佼 者 ， 基 于 一 定 概率 
产生 众多 随机 向 量 " ,不仅 可 以 有 效 构 建 多 决策 树 以 
生成 集成 模型 , 还 起 到 特征 变量 选择 的 作用 。 与 已 有 
研究 中 较 好 的 表现 一 致 F"", 表 4 中 的 随机 森林 在 
准确 率 和 下 值 上 均 是 最 好 的 。 

对 比 图 5 中 三 组 不 同 特 征 变 量 的 实验 结果 可 以 看 
出 ,第 二 组 和 第 三 组 的 F 值 要 远 高 于 第 一 组 , 表明 基 
于 URL 异常 特征 的 识别 模型 并 不 能 很 好 地 进行 钓鱼 
网 站 的 识别 ， 而 基于 网 络 评估 数据 以 及 融合 两 类 特征 
的 识别 模型 则 能 够 较 准 确 地 识别 钓鱼 网 站 ; 同时 , 与 
只 使 用 网 络 评估 数据 相 比 , 融合 两 类 特征 的 识别 模型 
其 结果 准确 率 有 一 定 的 提高 。 这 再 次 反映 出 网 络 评估 
数据 在 识别 钓鱼 网 站 中 的 有 效 性 ,也 说 明 探 索 融 合 多 
种 不 同 来 源 的 特征 变量 以 提高 钓鱼 网 站 识别 性 能 是 
可 行 的 。 另 外 , 相 比 于 前 5 个 单一 模型 ， 集 成 了 多 个 
弱 学 习 器 的 集成 模型 取得 了 更 高 的 F 值 ， 实 现 了 更 好 
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地 识别 钓鱼 网 站 的 目的 , 再 次 表明 了 集成 模型 的 高 
效 与 准确 。 


6 结 语 


本 文采 用 8 种 机 顺 学 习 技 术 , 对 比 研究 了 传统 的 
基于 URL 异常 特征 的 识别 模型 与 最 近 的 基于 网 络 评 
佑 数据 的 识别 模型 在 识别 钓鱼 网 站 问题 上 的 性 能 , 并 
融合 两 类 特征 变量 , 探究 提高 钓鱼 网 站 识别 准确 性 的 
可 行 性 方案 。 实证 结果 表明 ,基于 URL 异常 特征 的 识 
别 模型 不 能 很 好 地 进行 钓鱼 网 站 的 识别 , 而 基于 网 络 
评估 数据 的 识别 模型 具有 较 高 的 识别 准确 性 ， 且 融合 
两 类 特征 向 量 的 识别 模型 对 钓鱼 网 站 的 识别 准确 性 有 
一 定 提 高 。 由 于 网 络 评估 数据 收集 便捷 ， 处 理 方式 较 
为 简单 , 因此 在 已 有 识别 技术 的 基础 上 融合 该 类 型 特 
征 变量 是 值得 应 用 并 推广 的 。 

然而 , 在 实际 生活 中 , 钓鱼 网 站 与 正常 网 站 的 比 
例 是 不 均衡 的 , 在 之 后 的 研究 中 将 针对 这 一 类 别 不 均 
衡 问 题 , 研究 更 先进 的 机 需 学 习 技 术 与 识别 模型 。 此 
外 ,网 站 页 面 信息 是 识别 钓鱼 网 站 的 另 一 重要 数据 ， 
未 来 会 尝试 融合 包括 URL 特征 、 页 面 信息 、 网 络 评估 
数据 等 更 多 不 同 来 源 的 特征 变量 ,以 进一步 提高 钓鱼 
网 站 的 识别 准确 性 。 
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Identifying Phishing Websites with Multiple Online Data Sources 


Hu Zhongyi Wang Chaoqun WuJiang 
(School of Information Management, Wuhan University, Wuhan 430072, China) 
(The Center for Electronic Commerce Research and Development, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This study aims to identify phishing websites more effectively with the help of online evaluation 
data and URL abnormal features. [Methods] First, we used eight machine learning techniques to compare the 
performance of various online evaluation data and URL abnormal features in identifying phishing websites. Then, we 
proposed a new method to improve the accuracy of the identification procedures. [Results] We found that the 
evaluation data had better performance than abnormal features of URL. Combining the two data sets could improve the 
identification performance. [Limitations] We did not consider the difference between the numbers of phishing sites and 
the good ones. [Conclusions] Online evaluation data and URL abnormal features could help us identify phishing 
websites effectively, which indicates the direction of future studies. 


Keywords: Data Mining Phishing Websites Identification Machine Learning 


视听 资料 库 系统 Avalon 媒体 系统 获得 百 万 美元 资助 


由 西北 大 学 图 书馆 和 印第安 纳 大 学 图 书馆 共同 开发 的 视听 资料 库 系 统 于 近日 获得 967 000 美元 的 联邦 拨款 ,用 于 进一步 

提高 档案 机 构 管 理 和 使 大 型 视频 和 音频 数字 馆藏 的 能 力 。 来 自 美 国 博物 馆 和 图 书馆 服务 研究 所 (Institute of Museum and 
Library Services, IMLS) 的 国家 领导 基金 (编号 : LG-70-17-0042-17) 专 门 用 于 这 个 开源 工具 的 功能 开发 和 可 持续 性 维护 建设 ， 该 
工具 称 为 Avalon 媒体 系统 。Avalon 旨 在 帮助 机 构 为 教师 、 学 生 和 研究 人 员 管 理 和 提供 音 视 频 资 料 。 
Avalon 的 规划 、 设 计 和 开发 得 到 了 来 自 IMLS 和 Andrew W. Mellon 基金 会 的 资助 。 西 北大 学 和 印第安 纳 大 学 主要 负责 
该 开源 工具 的 软件 开发 ， 而 各 大 机 构 则 主要 负责 测试 ， 以 确保 该 系统 满足 研究 、 教 学 和 文化 遗产 社区 的 需求 。 西 北大 学 图 书 
馆 在 两 年 半 前 实施 了 Avalon, 作为 音 视频 资料 存储 库 。 目 前 ，Avalon 在 6 个 机 构 , 包括 西北 大 学 、 印 第 安 纳 大 学 、 弗 吉 尼 亚 
大 学 、 华 盛 顿 大 学 、 阿 尔 伯 塔 大 学 和 加 尔 文学 院 等 6 个 机 构 全 面 实施 , 其 他 一 些 机 构 正 处 于 不 同 的 实施 阶段 。 

该 基金 资助 的 为 期 两 年 的 项 目的 4 大 目标 包括 : 

(1) 将 Avalon 集成 到 Samvera (Hydra) 代 码 库 中 。Samvera 也 称 Hydra， 是 一 个 大 型 数字 存储 库 开 源 项 目 。Avalon 基于 
Samvera 代码 , 并 且 已 经 在 社区 内 进行 了 应 用 实施 。 目前 的 Avalon 是 独立 于 其 他 软件 应 用 程序 的 ， 如果 能 集成 到 Samvera 中 ， 
就 可 以 从 更 广泛 的 Samvera 社区 中 获得 更 好 的 支持 和 开发 。 

(2) 基于 云 的 Avalon 版 本 。 基 于 云 基 础 设施 能 使 得 Avalon 平台 易于 安装 和 运行 ,进一步 使 供应 商 更 容易 提供 Avalon 服 
务 , 各 种 规模 的 机 构 也 能 更 轻松 地 使 用 该 工具 。 目 前 , 没有 专门 人员 的 机 构 可 能 无 法 实施 Avalon, 但 是 部 署 到 端 之 后 , 实 
施 将 变 得 非常 容易 , 机构 可 以 像 使 用 现成 解决 方案 一 样 使 用 Avalon。 

(3) 改进 媒体 保存 。 虽然 Avalon 是 一 个 用 于 长 期 存储 数字 文件 的 存储 库 , 但 它 并 不 是 一 个 数字 保存 系统 。 作 为 数字 保存 
系统 的 存储 需要 长 久 的 、 健 壮 的 数据 存储 保护 ,包括 定期 扫描 损坏 或 丢失 数据 的 “固定 检查 ”。 

(4) 实现 标准 化 的 交付 格式 。 不 同 的 数字 平台 相互 交互 时 需要 一 个 标准 化 的 沟通 桥梁 。Avalon 技术 团队 将 与 相关 组 织 一 
起 合作 , 通过 国际 图 像 互 操作 性 框架 , 制订 一 套 音 视频 互 操作 性 规范 ， 并 提供 “示范 实施 ”。 

这 4 大 目标 的 实现 将 使 得 Avalon 成 为 获取 音 视频 资料 的 最 强大 的 解决 方案 , 各 种 规模 的 档案 机 构 将 都 能 参与 到 保护 和 
研究 文化 遗产 中 来 。 
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